Speech to text models tend to be trained and evaluated against a single target accent. This is especially true for English for which native speakers from the United States became the main benchmark. In this work, we are going to show how two simple methods: pre-trained embeddings and auxiliary classification losses can improve the performance of ASR systems. We are looking for upgrades as universal as possible and therefore we will explore their impact on several models architectures and several languages.
translated by 谷歌翻译
端到端的口语理解(SLU)使用单个模型直接从音频中预测意图。它有望通过利用中间文本表示中丢失的声学信息来提高助手系统的性能,并防止自动语音识别(ASR)中的级联错误。此外,在部署助手系统时,拥有一个统一模型具有效率优势。但是,具有语义解析标签的公共音频数据集有限的数量阻碍了该领域的研究进展。在本文中,我们发布了以任务为导向的语义解析(Stop)数据集,该数据集是公开可用的最大,最复杂的SLU数据集。此外,我们定义了低资源拆分,以建立有限的标记数据时改善SLU的基准。此外,除了人类录制的音频外,我们还发布了TTS生成版本,以基于端到端SLU系统的低资源域适应性的性能。最初的实验表明,端到端SLU模型的性能比级联的同行差一些,我们希望这能鼓励未来的工作。
translated by 谷歌翻译
语音情感转换是修改语音话语的感知情绪的任务,同时保留词汇内容和扬声器身份。在这项研究中,我们将情感转换问题作为口语翻译任务。我们将演讲分解为离散和解散的学习表现,包括内容单位,F0,扬声器和情感。首先,我们通过将内容单元转换为目标情绪来修改语音内容,然后基于这些单元预测韵律特征。最后,通过将预测的表示馈送到神经声码器中来生成语音波形。这样的范式允许我们超越信号的光谱和参数变化,以及模型非口头发声,例如笑声插入,打开拆除等。我们客观地和主观地展示所提出的方法在基础上优于基线感知情绪和音频质量。我们严格评估了这种复杂系统的所有组成部分,并通过广泛的模型分析和消融研究结束,以更好地强调建议方法的建筑选择,优势和弱点。示例和代码将在以下链接下公开使用:https://speechbot.github.io/emotion。
translated by 谷歌翻译
IMPORTANCE: An interpretable machine learning model can provide faithful explanations of each prediction and yet maintain higher performance than its black box counterpart. OBJECTIVE: To design an interpretable machine learning model which accurately predicts EEG protopatterns while providing an explanation of its predictions with assistance of a specialized GUI. To map the cEEG latent features to a 2D space in order to visualize the ictal-interictal-injury continuum and gain insight into its high-dimensional structure. DESIGN, SETTING, AND PARTICIPANTS: 50,697 50-second cEEG samples from 2,711 ICU patients collected between July 2006 and March 2020 at Massachusetts General Hospital. Samples were labeled as one of 6 EEG activities by domain experts, with 124 different experts providing annotations. MAIN OUTCOMES AND MEASURES: Our neural network is interpretable because it uses case-based reasoning: it compares a new EEG reading to a set of learned prototypical EEG samples from the training dataset. Interpretability was measured with task-specific neighborhood agreement statistics. Discriminatory performance was evaluated with AUROC and AUPRC. RESULTS: The model achieves AUROCs of 0.87, 0.93, 0.96, 0.92, 0.93, 0.80 for classes Seizure, LPD, GPD, LRDA, GRDA, Other respectively. This performance is statistically significantly higher than that of the corresponding uninterpretable (black box) model with p<0.0001. Videos of the ictal-interictal-injury continuum are provided. CONCLUSION AND RELEVANCE: Our interpretable model and GUI can act as a reference for practitioners who work with cEEG patterns. We can now better understand the relationships between different types of cEEG patterns. In the future, this system may allow for targeted intervention and training in clinical settings. It could also be used for re-confirming or providing additional information for diagnostics.
translated by 谷歌翻译
为偏置场校正和磁共振归一化问题提出了空间正则化的高斯混合模型LAPGM。提出的空间正常化程序为从业者提供了平衡偏置磁场去除和保存图像对比度之间的微调控制,以提供多序列的磁共振图像。LAPGM的拟合高斯参数用作控制值,可用于在不同的患者扫描中标准化图像强度。将LAPGM与单个和多序列设置中的众所周知的词汇算法N4ITK进行了比较。作为一种归一化程序,将LAPGM与已知技术(例如:最大归一化,Z得分归一化和水掩模的利益区域归一化)进行比较。最后,由作者提供了cuda加速python软件包$ \ texttt {lapgm} $。
translated by 谷歌翻译
嵌入学习是深度建议模型中的重要技术,可以将分类特征映射到密集的矢量。但是,嵌入表通常需要大量参数,这些参数成为存储和效率瓶颈。已经采用了分布式培训解决方案将嵌入表分配到多个设备中。但是,如果不仔细分区,则嵌入表很容易导致失衡。这是名为“嵌入桌碎片”的分布式系统的重大设计挑战,即,我们应该如何对嵌入表进行分配以平衡跨设备的成本,这是一项非平凡的任务,因为1)很难有效,精确地衡量成本,和2)已知分区问题是NP-HARD。在这项工作中,我们在Meta中介绍了新颖的实践,即Autoshard,该实践使用神经成本模型直接预测多桌成本和利用深度强化学习以解决分区问题。开源的大规模合成数据集和Meta生产数据集的实验结果证明了Autoshard的优越性优于启发式方法。此外,Autoshard的学习政策可以转移到具有不同数量的表和不同表格比率的碎片任务中,而无需进行任何微调。此外,Autoshard可以在几秒钟内有效地将数百张桌子碎片。 Autoshard的有效性,可转移性和效率使其适合生产使用。我们的算法已在元生产环境中部署。可以在https://github.com/daochenzha/autoshard上获得原型
translated by 谷歌翻译
互动模拟使学生可以通过自己的探索来发现科学现象的基本原理。不幸的是,学生经常在这些环境中有效地学习。根据他们的预期表现对学生的互动数据进行分类,有可能实现自适应指导并因此改善学生的学习。该领域的先前研究主要集中于A-tosteriori分析或研究限于一个特定的预测模型和仿真。在本文中,我们研究了模型的质量和普遍性,以根据跨交互式仿真的学生的点击数据进行概念性理解的早期预测。我们首先通过他们的任务表现来衡量学生的概念理解。然后,我们建议一种新型的功能,该功能从ClickStream数据开始,既编码仿真的状态和学生执行的动作。我们最终建议将这些功能馈送到基于GRU的模型中,有或没有注意力进行预测。在两个不同的模拟上进行的实验和两个不同的人群表明,我们提出的模型的表现优于浅层学习基准,并更好地推广到不同的学习环境和人群。将注意力包括在模型中可以提高有效的查询。源代码可在GitHub(https://github.com/epfl-ml4ed/beerslaw-lab.git)上获得。
translated by 谷歌翻译
随着物联网(IoT),边缘计算和云计算的普及,正在开发越来越多的流分析应用程序,包括在物联网传感数据之上的实时趋势预测和对象检测。一种流行的流分析类型是基于重复的神经网络(RNN)基于深度学习模型的时间序列或序列数据预测和预测。与假设数据提前可用并且不会更改的传统分析不同,流分析涉及正在连续生成的数据,并且数据趋势/分布可能会发生变化(又称概念漂移),这将导致预测/预测准确性下降时间。另一个挑战是为流分析找到最佳的资源提供,以达到良好的总体延迟。在本文中,我们研究了如何使用称为长期记忆(LSTM)的RNN模型来最佳利用边缘和云资源,以获得更好的准确性和流式分析。我们为混合流分析提出了一个新颖的边缘云集成框架,该框架支持云上边缘和高容量训练的低潜伏期推断。为了实现灵活的部署,我们研究了部署混合学习框架的不同方法,包括以边缘为中心,以云为中心和边缘云集成。此外,我们的混合学习框架可以根据历史数据进行预训练的LSTM模型,并根据最新数据定期重新训练LSTM模型的推理结果。使用现实世界和模拟流数据集,我们的实验表明,在延迟方面,提出的Edge-Cloud部署是所有三种部署类型中最好的。为了准确性,实验表明我们的动态学习方法在所有三种概念漂移方案的所有学习方法中都表现出最好的作用。
translated by 谷歌翻译
语言模型预训练的最新进展利用大规模数据集创建多语言模型。但是,这些数据集中大多遗漏了低资源语言。这主要是因为网络上没有很好地表示口语,因此被排除在用于创建数据集的大规模爬网中。此外,这些模型的下游用户仅限于最初选择用于预训练的语言的选择。这项工作调查了如何最佳利用现有的预培训模型来为16种非洲语言创建低资源翻译系统。我们关注两个问题:1)如何将预训练的模型用于初始预培训中未包含的语言? 2)生成的翻译模型如何有效地转移到新域?为了回答这些问题,我们创建了一个新的非洲新闻语料库,涵盖16种语言,其中8种语言不属于任何现有评估数据集的一部分。我们证明,将两种语言转移到其他语言和其他领域的最有效策略是,以少量的高质量翻译数据微调大型预训练模型。
translated by 谷歌翻译
虚拟支持代理商已经普及,作为企业提供更好,更可访问的客户服务的一种方式。此域中的一些挑战包括模糊的用户查询以及更改支持主题和用户行为(非实用性)。但是,我们这样做可以访问用户提供的部分反馈(点击,调查和其他事件),这些反馈可以利用来改善用户体验。适应的学习技术,如上下文匪徒,是对这个问题设置的自然拟合。在本文中,我们讨论了Microsoft Virtual代理的上下文匪徒(CB)的实际实现。它包括基于神经线性匪徒(NLB)和基于多武装匪徒(MAB)集合的内容建议的意图消歧。我们的解决方案已部署到生产并改进了Microsoft虚拟代理的关键业务指标,由A / B实验确认。结果包括问题分辨率的相对增加12%,并且对人类运营商的升级相对减少超过4%。虽然我们目前的用例侧重于Intent消费歧义和支持机器人的上下文建议,但我们认为我们的方法可以扩展到其他域。
translated by 谷歌翻译